Data Governance & Data Science
Sommario:
- Agile e valorizzazione del dato: lo scenario attuale
- Perché l’approccio Agile?
- Perché la Data Governance?
- Implementazione di una Data Platform: il caso
- Problematiche esistenti
- La soluzione – il framework di Data Governance
- L’approccio Agile nel framework di Data Governance
- Il risultato
- Conclusioni
Agile e valorizzazione del dato: lo scenario attuale
Le pratiche di sviluppo Agile stanno (finalmente) prendendo piede anche in Italia nonostante l’inerzia di molte organizzazioni sia stata un freno rilevante negli ultimi anni e, parallelamente, l’attenzione delle aziende italiane per i progetti di valorizzazione dati sta aumentando grazie alla maggior consapevolezza delle potenzialità di utilizzo degli asset Dati.
A titolo esemplificativo, nonostante il 2020 sia stato chiaramente un anno di rallentamento in termini di investimenti per le imprese, il 96% delle grandi aziende italiane dichiara di aver avviato o portato avanti investimenti (interni o esterni) in ambito Data Management & Analytics e che lo sviluppo di progettualità di Advanced Analytics risulta essere prioritario per il 61% di esse .
E sono proprio questo tipo di progettualità il motivo per cui, nelle grandi organizzazioni, team che al loro interno hanno competenze dedicate alla valorizzazione dell’asset dati in azienda sono sempre più presenti.
Perché l’approccio Agile?
Viste le caratteristiche di questo tipo di progetti, Agile può essere una leva per garantire efficacia ed efficienza al team. Si tratta, infatti, di progetti caratterizzati da componenti di incertezza elevate rispetto sia ai requisiti iniziali, sia alle soluzioni tecniche e tecnologiche che dovranno essere implementate da parte del team per il raggiungimento degli obiettivi di business.
In questi contesti, infatti, l’approccio Agile porta il team a sforzarsi nella divisione del lavoro in attività di minore dimensione, prioritizzate rispetto al valore generato e su cui si ricevono feedback tempestivi.
Perché la Data Governance?
Parallelamente, l’utilizzo sempre più evoluto dell’asset dati all’interno delle imprese sta facendo crescere l’attenzione per un’altra tematica fondamentale: la Data Governance. La definizione e l’adozione di un framework di Data Governance, infatti, permette di definire flussi di lavoro e politiche di gestione dei dati a 360°. Mettendo il dato al centro dei processi aziendali, siano essi processi business-as-usual o rivolti all’innovazione.
Andando a definire le modalità con cui l’azienda si prende cura dei suoi dati, la Data Governance permette di garantire all’azienda l’utilizzo di dati di qualità, coerenti e tempestivi ad utenti e processi di business.
Un framework di Data Governance permette anzitutto di definire le responsabilità rispetto alla gestione del dato, ovvero quali sono le figure interne all’organizzazione che garantiscono, in prima battuta, la copertura di alcuni obiettivi fondamentali:
- Conoscenza aggiornata dei data asset posseduti dall’azienda
- Garanzia di accessibilità e usabilità del dato
- Monitoraggio della qualità
- Garanzia di sicurezza ed utilizzo corretto dei dati
Ovviamente, il raggiungimento di questi obiettivi dipende da attività di Data Governance (pianificazione, esecuzione, monitoraggio) effettuate lungo tutto il ciclo di vita del dato, ed i progetti di cui si occupano i team di Data Science offrono un ottimo punto di partenza.
Implementazione di una Data Platform: il caso
In una recente esperienza progettuale, ho avuto l’opportunità di supportare, in un percorso di definizione ed attuazione di un framework di Data Governance, una multiutility leader in Italia che sta investendo nella valorizzazione dei molteplici data asset di cui dispone.
Nel 2018, in azienda è emersa evidente la necessità di avere a disposizione una piattaforma di gestione dati moderna. Dopo uno studio iniziale per definire le componenti principali, è stata avviata la realizzazione pilota di una Data Platform a supporto della direzione commerciale realizzata su datacenter proprietario, ma già nel 2019, il perimetro è stato esteso a tutte le direzioni aziendali e ad inizio 2020 la piattaforma è stata completamente migrata su infrastruttura Public Cloud.
La Data Platform consente di avere disponibili in un unico spazio tutti i dati raccolti dalle varie fonti alimentanti, permettendo alle Business Unit di potere realizzare soluzioni di reportistica e di intelligenza artificiale per supportare le decisioni di business beneficiando di tutti i dati a disposizione. Inoltre, qualsiasi dato non ancora presente può essere integrato in caso di necessità, in modo da renderlo disponibile per ogni altra applicazione che lo richieda.
La crescente disponibilità di dati ha permesso di aumentare considerevolmente la velocità con cui i modelli di machine learning vengono sviluppati.
Questi modelli vengono sviluppati da un team di Data Scientists interno che, vista la natura di questi progetti, ha deciso di adottare un approccio Agile SCRUM-based. I team sono organizzati in “stanze” di lavoro, gestite in modo iterativo ed incrementale e ogni “stanza” generalmente composta da un Product Owner di business, uno Scrum Master, due Data Scientist e un Data Engineer.
Una volta creato un PoC di modello affinato e dopo averne testata l’efficacia, questo viene trasferito al dipartimento IT che si occupa della sua “industrializzazione” e del deploy del servizio a beneficio degli utenti.
Problematiche esistenti
Durante il 2019, però, sia durante le attività progettuali di sviluppo che all’adozione di alcuni dei casi d’uso sviluppati sulla piattaforma, erano emerse alcune problematiche che l’azienda ha ritenuto derivanti da una mancata definizione e applicazione di un Framework di Data Governance strutturato.
Ad esempio, dopo alcuni mesi dopo lo sviluppo (PoC) di uno specifico modello che faceva uso di dati provenienti dai contatori elettrici, al momento del test del servizio “industrializzato”, gli utenti finali hanno rilevato una anomalia negli output del modello. Dopo attenta analisi, è emerso che uno dei dati utilizzati dai modelli, ovvero la potenza installata del cliente elettrico (dato proveniente dal Sistema Informativo Integrato – Autorità), non era popolato in piattaforma, causando l’anomalia.
In un altro caso, invece, l’eliminazione di alcune tabelle all’interno della Data Platform da parte di un gruppo di lavoro, ha avuto conseguenze su altri modelli già in fase di affinamento, portando ad una serie di rework imprevisti.
La soluzione – il framework di Data Governance
Per prevenire questi ed altri inconvenienti, si è deciso di sviluppare un framework di Data Governance che coinvolgesse tutti gli attori necessari per passare dalla definizione di un caso d’uso di machine learning all’industrializzazione del servizio di business basato su di esso.
All’interno di questi progetti, i team delle stanze hanno un ruolo fondamentale rispetto alla Data Governance poiché è proprio durante la stanza che, ad esempio, si:
- definiscono le entità di business che devono essere utilizzate per supportare il modello
- verifica o definisce il significato che quelle entità di business (e i relativi attributi) hanno
- verificano eventuali vincoli all’utilizzo dei dati (es. GDPR)
- verificano la provenienza e le modalità di acquisizione dei dati
e questo spesso avviene in modo iterativo ed incrementale.
L’approccio Agile nel framework di Data Governance
E’ risultato fondamentale, quindi, definire e formalizzare alcune attività di Data Governance che le differenti figure coinvolte in questa fase si sarebbero dovute prendere in carico, facendole diventare a tutti gli effetti parte della DoD (Definition of Done) di alcune attività oppure incorporandole direttamente all’interno del backlog della stanza.
Molte di queste attività prevedono l’attivazione di ruoli di Data Governance esterni alla stanza, coinvolgendoli nel momento giusto all’interno dei cicli di sviluppo, ed è stato deciso di assegnare questo tipo di responsabilità allo Scrum Master, in virtù del suo ruolo di facilitatore ed attivatore.
Altre attività maggiormente legate allo sviluppo della soluzione, ad esempio la documentazione dei flussi dati predisposti necessari alla stanza, sono state demandate al team di sviluppo (Data Scientist o Data Engineer) a seconda della loro natura. Inoltre, per garantire che non vadano perse le informazioni sulla storia e sulle evoluzioni del modello sviluppato, e delle relative logiche alimentati, si è deciso di creare una figura di stewardship ad-hoc che garantisca continuità nel tracciare questo tipo di informazione.
Come già menzionato, il framework di Data Governance non ha coinvolto solo i team delle stanze, ma anche tutto il resto dell’azienda, a livello sia di figure business per quanto riguarda la semantica dei dati, sia di figure IT, maggiormente focalizzate sugli aspetti tecnici della Data Governance.
Il risultato
Dopo qualche mese di progetto pilota, durante il quale sono stati affinati sia il modello che alcune delle procedure operative, il framework è stato esteso a tutta la piattaforma, arrivando a coinvolgere più di 100 persone all’interno dell’organizzazione.
I team di Data Science, a fronte di un maggior impegno richiesto loro all’interno della stanza, hanno beneficiato della presenza di documentazione sui dati presenti in piattaforma standardizzata ed aggiornata regolarmente , rendendo molto più rapidi processi quali l’identificazione dei corretti interlocutori di business per la validazione semantica delle informazioni e l’accesso alla documentazione tecnica relativa alle trasformazioni subite dal dato prima di arrivare in piattaforma (Data Lineage).
In questo modo è stato possibile rendere più efficiente ed efficace il lavoro delle stanze sin dalle prime iterazioni.
Conclusioni
Questa esperienza conferma che è possibile (oltre che necessario) far coesistere framework a prima vista lontani dalle logiche Agile con modalità di lavoro basate si questi principi. Sicuramente non è sempre semplice ed è necessario scendere a “compromessi” da entrambi i punti di vista, ma con un’attenta osservazione delle dinamiche organizzative ed un approccio iterativo si riescono a raggiungere ottimi risultati.
Autore:
Partner doDigital e Practice Leader dell’area Sistemi Informativi ed IT Governance, supporta le organizzazioni nell’approcciare i temi del digitale in modo strategico e sostenibile. Poiché ritiene che Agile e Data Governance siano, all’interno di questi percorsi, ingredienti fondamentali per le aziende di oggi e di domani, il suo lavoro è mirato affinché diventino parte della cultura organizzativa.
In parallelo con l’attività consulenziale, collabora con il Politecnico di Milano e la sua School of Management (MIP) svolgendo attività di docenza e di ricerca.